7 research outputs found

    Χρονοπρογραμματισμός Ροών Δεδομένων στο Νέφος

    Get PDF
    Ο χρονοπρογραμματισμός ροών δεδομένων στο νέφος είναι μια πολύπλοκη διαδικασία γεμάτη προκλήσεις. Ουσιαστικά, είναι ένα πρόβλημα βελτιστοποίησης, το οποίο διαφέρει σε δύο σημεία από την κλασσική βελτιστοποίηση στις βάσεις δεδομένων: ο χώρος αναζήτησης είναι πολύ πλούσιος δεδομένου του νέου περιβάλλοντος και το κριτήριο βελτιστοποίησης είναι τουλάχιστον δύο διαστάσεων, με το χρηματικό κόστος να είναι εξίσου σημαντικό με τον χρόνο ολοκλήρωσης. Σε αυτήν την εργασία μελετάμε τον χρονοπρογραμματισμό ροών δεδομένων που περιλαμβάνουν αυθαίρετους τελεστές που επεξεργάζονται δεδομένα στο πλαίσιο τριών προβλημάτων: 1) ελαχιστοποίηση του χρόνου εκτέλεσης δεδομένου ενός χρηματικού ορίου, 2) ελαχιστοποίηση χρηματικού κόστους δεδομένου χρονικού ορίου, και 3) εύρεση συμβιβασμών μεταξύ χρόνου και χρήματος χωρίς περιορισμούς. Διατυπώνουμε τα προβλήματα και παρουσιάζουμε ένα πλαίσιο βελτιστοποίησης το οποίο είναι προσεγγιστικό και εκμεταλλεύεται την ελαστικότητα των πόρων του νέφους. Για να διερευνήσουμε την αποτελεσματικότητα της προσέγγισής μας, υλοποιήσαμε το προτεινόμενο πλαίσιο σε ένα πρωτότυπο σύστημα και ενσωματώσαμε διάφορους άπληστους, πιθανοτικούς, και εξαντλητικής αναζήτησης αλγορίθμους. Τέλος, μέσα από διάφορα πειράματα που κάναμε με το πρωτότυπο ελαστικό βελτιστοποιητή χρησιμοποιώντας διάφορες επιστημονικές και συνθετικές ροές δεδομένων, έχουμε εντοπίσει αρκετά ενδιαφέροντα χαρακτηριστικά του χώρου των εναλλακτικών χρονοπρογραμμάτων καθώς και τα πλεονεκτήματα και μειονεκτήματα των διαφόρων αλγορίθμων αναζήτησης. Τα συνολικά αποτελέσματα είναι ελπιδοφόρα και δείχνουν την αποτελεσματικότητα της προσέγγισής μας.Scheduling data processing workflows (dataflows) on the cloud is a very complex and challenging task. It is essentially an optimization problem, very similar to query optimization, that is characteristically different from traditional problems in two aspects: Its space of alternative schedules is very rich, due to various optimization opportunities that cloud computing offers; its optimization criterion is at least two-dimensional, with monetary cost of using the cloud being at least as important as query completion time. In this paper, we study scheduling of dataflows that involve arbitrary data processing operators in the context of three different problems: 1) minimize completion time given a fixed budget, 2) minimize monetary cost given a deadline, and 3) find trade-offs between completion time and monetary cost without any a-priori constraints. We formulate these problems and present an approximate optimization framework to address them that uses resource elasticity in the cloud. To investigate the effectiveness of our approach, we incorporate the devised framework into a prototype system for dataflow evaluation and instantiate it with several greedy, probabilistic, and exhaustive search algorithms. Finally, through several experiments that we have conducted with the prototype elastic optimizer on numerous scientific and synthetic dataflows, we identify several interesting general characteristics of the space of alternative schedules as well as the advantages and disadvantages of the various search algorithms. The overall results are quite promising and indicate the effectiveness of our approach

    Elastic Dataflow Processing on the Cloud

    Get PDF
    Τα νεφη εχουν μετατραπει σε μια ελκυστικη πλατφορμα για την πολυπλοκη επεξεργασια δεδομενων μεγαλης κλιμακας, ειδικα εξαιτιας της εννοιας της ελαστικοτητας, η οποια και τα χαρακτηριζει: οι υπολογιστικοι ποροι μπορουν να εκμισθωθουν δυναμικα και να χρησιμοποιουνται για οσο χρονο ειναι απαραιτητο. Αυτο δινει την δυνατοτητα να δημιουργηθει μια εικονικη υποδομη η οποια μπορει να αλλαζει δυναμικα στο χρονο. Οι συγχρονες εφαρμογες απαιτουν την εκτελεση πολυπλοκων ερωτηματων σε Μεγαλα Δεδομενα για την εξορυξη γνωσης και την υποστηριξη επιχειρησιακων αποφασεων. Τα πολυπλοκα αυτα ερωτηματα, εκφραζονται σε γλωσσες υψηλου επιπεδου και τυπικα μεταφραζονται σε ροες επεξεργασιας δεδομενων, η απλα ροες δεδομενων. Ενα λογικο ερωτημα που τιθεται ειναι κατα ποσον η ελαστικοτητα επηρεαζει την εκτελεση των ροων δεδομενων και με πιο τροπο. Ειναι λογικο οτι η εκτελεση να ειναι πιθανον γρηγοροτερη αν χρησιμοποιηθουν περισ- σοτεροι υπολογιστικοι ποροι, αλλα το κοστος θα ειναι υψηλοτερο. Αυτο δημιουργει την εννοια της οικο-ελαστικοτητας, ενος επιπλεον τυπου ελαστικοτητας ο οποιος προερχεται απο την οικονο- μικη θεωρια, και συλλαμβανει τις εναλλακτικες μεταξυ του χρονου εκτελεσης και του χρηματικου κοστους οπως προκυπτει απο την χρηση των πορων. Στα πλαισια αυτης της διδακτορικης διατριβης, προσεγγιζουμε την ελαστικοτητα με ενα ενοποιημενο μοντελο που περιλαμβανει και τις δυο ειδων ελαστικοτητες που υπαρχουν στα υπολογιστικα νεφη. Αυτη η ενοποιημενη προσεγγιση της ελαστικοτητας ειναι πολυ σημαντικη στην σχεδιαση συστηματων που ρυθμιζονται αυτοματα (auto-tuned) σε περιβαλλοντα νεφους. Αρχικα δειχνουμε οτι η οικο-ελαστικοτητα υπαρχει σε αρκετους τυπους υπολογισμου που εμφανιζονται συχνα στην πραξη και οτι μπορει να βρεθει χρησιμοποιωντας εναν απλο, αλλα ταυτοχρονα αποδοτικο και ε- πεκτασιμο αλγοριθμο. Επειτα, παρουσιαζουμε δυο εφαρμογες που χρησιμοποιουν αλγοριθμους οι οποιοι χρησιμοποιουν το ενοποιημενο μοντελο ελαστικοτητας που προτεινουμε για να μπορουν να προσαρμοζουν δυναμικα το συστημα στα ερωτηματα της εισοδου: 1) την ελαστικη επεξεργασια αναλυτικων ερωτηματων τα οποια εχουν πλανα εκτελεσης με μορφη δεντρων με σκοπο την μεγι- στοποιηση του κερδους και 2) την αυτοματη διαχειριση χρησιμων ευρετηριων λαμβανοντας υποψη το χρηματικο κοστος των υπολογιστικων και των αποθηκευτικων πορων. Τελος, παρουσιαζουμε το EXAREME, ενα συστημα για την ελαστικη επεξεργασια μεγαλου ογκου δεδομενων στο νεφος το οποιο εχει χρησιμοποιηθει και επεκταθει σε αυτην την δουλεια. Το συστημα προσφερει δηλωτικες γλωσσες που βασιζονται στην SQL επεκταμενη με συναρτησεις οι οποιες μπορει να οριστουν απο χρηστες (User-Defined Functions, UDFs). Επιπλεον, το συντακτικο της γλωσσας εχει επεκταθει με στοιχεια παραλληλισμου. Το EXAREME εχει σχεδιαστει για να εκμεταλλευεται τις ελαστικοτη- τες που προσφερουν τα νεφη, δεσμευοντας και αποδεσμευοντας υπολογιστικους πορους δυναμικα με σκοπο την προσαρμογη στα ερωτηματα.Clouds have become an attractive platform for the large-scale processing of modern applications on Big Data, especially due to the concept of elasticity, which characterizes them: resources can be leased on demand and used for as much time as needed, offering the ability to create virtual infrastructures that change dynamically over time. Such applications often require processing of complex queries that are expressed in a high-level language and are typically transformed into data processing flows (dataflows). A logical question that arises is whether elasticity affects dataflow execution and in which way. It seems reasonable that the execution is faster when more resources are used, however the monetary cost is higher. This gives rise to the concept eco-elasticity, an additional kind of elasticity that comes from economics, and captures the trade-offs between the response time of the system and the amount of money we pay for it as influenced by the use of different amounts of resources. In this thesis, we approach the elasticity of clouds in a unified way that combines both the traditional notion and eco-elasticity. This unified elasticity concept is essential for the development of auto-tuned systems in cloud environments. First, we demonstrate that eco-elasticity exists in several common tasks that appear in practice and that can be discovered using a simple, yet highly scalable and efficient algorithm. Next, we present two cases of auto-tuned algorithms that use the unified model of elasticity in order to adapt to the query workload: 1) processing analytical queries in the form of tree execution plans in order to maximize profit and 2) automated index management taking into account compute and storage re- sources. Finally, we describe EXAREME, a system for elastic data processing on the cloud that has been used and extended in this work. The system offers declarative languages that are based on SQL with user-defined functions (UDFs) extended with parallelism primi- tives. EXAREME exploits both elasticities of clouds by dynamically allocating and deallocating compute resources in order to adapt to the query workload

    Ελαστική επεξεργασία ροών δεδομένων στο νέφος

    No full text
    Clouds have become an attractive platform for the large-scale processing of modern applications on Big Data, especially due to the concept of elasticity, which characterizes them: resources can be leased on demand and used for as much time as needed, offering the ability to create virtual infrastructures that change dynamically over time. Such applications often require processing of complex queries that are expressed in a high-level language and are typically transformed into data processing flows (dataflows). A logical question that arises is whether elasticity affects dataflow execution and in which way. It seems reasonable that the execution is faster when more resources are used, however the monetary cost is higher. This gives rise to the concept eco-elasticity, an additional kind of elasticity that comes from economics, and captures the trade-offs between the response time of the system and the amount of money we pay for it as influenced by the use of different amounts of resources. In this thesis, we approach the elasticity of clouds in a unified way that combines both the traditional notion and eco-elasticity. This unified elasticity concept is essential for the development of auto-tuned systems in cloud environments. First, we demonstrate that eco-elasticity exists in several common tasks that appear in practice and that can be discovered using a simple, yet highly scalable and efficient algorithm. Next, we present two cases of auto-tuned algorithms that use the unified model of elasticity in order to adapt to the query workload: 1) processing analytical queries in the form of tree execution plans in order to maximize profit and 2) automated index management taking into account compute and storage re- sources. Finally, we describe EXAREME, a system for elastic data processing on the cloud that has been used and extended in this work. The system offers declarative languages that are based on SQL with user-defined functions (UDFs) extended with parallelism primitives. EXAREME exploits both elasticities of clouds by dynamically allocating and deallocating compute resources in order to adapt to the query workload.Τα νέφη έχουν μετατραπεί σε μια ελκυστική πλατφόρμα για την πολύπλοκη επεξεργασία δεδομένων μεγάλης κλίμακας, ειδικά εξαιτίας της έννοιας της ελαστικότητας, η οποία και τα χαρακτηρίζει: οι υπολογιστικοί πόροι μπορούν να εκμισθωθούν δυναμικά και να χρησιμοποιούνται για όσο χρόνο είναι απαραίτητο. Αυτό δίνει την δυνατότητα να δημιουργηθεί μια εικονική υποδομή η οποία μπορεί να αλλάζει δυναμικά στο χρόνο. Οι σύγχρονες εφαρμογές απαιτούν την εκτέλεση πολύπλοκων ερωτημάτων σε Μεγάλα Δεδομένα για την εξόρυξη γνώσης και την υποστήριξη επιχειρησιακών αποφάσεων. Τα πολύπλοκα αυτά ερωτήματα, εκφράζονται σε γλώσσες υψηλού επιπέδου και τυπικά μεταφράζονται σε ροές επεξεργασίας δεδομένων, ή απλά ροές δεδομένων. ́Ενα λογικό ερώτημα που τίθεται είναι κατά πόσον η ελαστικότητα επηρεάζει την εκτέλεση των ροών δεδομένων και με πιο τρόπο. Είναι λογικό ότι η εκτέλεση να είναι πιθανόν γρηγορότερη αν χρησιμοποιηθούν περισσότεροι υπολογιστικοί πόροι, αλλά το κόστος θα είναι υψηλότερο. Αυτό δημιουργεί την έννοια της οικο-ελαστικότητας, ενός επιπλέον τύπου ελαστικότητας ο οποίος προέρχεται από την οικονομική θεωρία, και συλλαμβάνει τις εναλλακτικές μεταξύ του χρόνου εκτέλεσης και του χρηματικού κόστους όπως προκύπτει από την χρήση των πόρων. Στα πλαίσια αυτής της διδακτορικής διατριβής, προσεγγίζουμε την ελαστικότητα με ένα ενοποιημένο μοντέλο που περιλαμβάνει και τις δύο ειδών ελαστικότητες που υπάρχουν στα υπολογιστικά νέφη. Αυτή η ενοποιημένη προσέγγιση της ελαστικότητας είναι πολύ σημαντική στην σχεδίαση συστημάτων που ρυθμίζονται αυτόματα (auto-tuned) σε περιβάλλοντα νέφους. Αρχικά δείχνουμε ότι η οικο-ελαστικότητα υπάρχει σε αρκετούς τύπους υπολογισμού που εμφανίζονται συχνά στην πράξη και ότι μπορεί να βρεθεί χρησιμοποιώντας έναν απλό, αλλά ταυτόχρονα αποδοτικό και επεκτάσιμο αλγόριθμο. ́Επειτα, παρουσιάζουμε δύο εφαρμογές που χρησιμοποιούν αλγόριθμους οι οποίοι χρησιμοποιούν το ενοποιημένο μοντέλο ελαστικότητας που προτείνουμε για να μπορούν να προσαρμόζουν δυναμικά το σύστημα στα ερωτήματα της εισόδου: 1) την ελαστική επεξεργασία αναλυτικών ερωτημάτων τα οποία έχουν πλάνα εκτέλεσης με μορφή δέντρων με σκοπό την μεγιστοποίηση του κέρδους και 2) την αυτόματη διαχείριση χρήσιμων ευρετηρίων λαμβάνοντας υπόψη το χρηματικό κόστος των υπολογιστικών και των αποθηκευτικών πόρων. Τέλος, παρουσιάζουμε το EXAREME, ένα σύστημα για την ελαστική επεξεργασία μεγάλου όγκου δεδομένων στο νέφος το οποίο έχει χρησιμοποιηθεί και επεκταθεί σε αυτήν την δουλειά. Το σύστημα προσφέρει δηλωτικές γλώσσες που βασίζονται στην SQL επεκταμένη με συναρτήσεις οι οποίες μπορεί να οριστούν από χρήστες (User-Defined Functions, UDFs). Επιπλέον, το συντακτικό της γλώσσας έχει επεκταθεί με στοιχεία παραλληλισμού. Το EXAREME έχει σχεδιαστεί για να εκμεταλλεύεται τις ελαστικότητες που προσφέρουν τα νέφη, δεσμεύοντας και αποδεσμεύοντας υπολογιστικούς πόρους δυναμικά με σκοπό την προσαρμογή στα ερωτήματα

    Optique: Towards OBDA Systems for Industry

    No full text
    The recently started EU FP7-funded project Optique will develop an end-to-end OBDA system providing scalable end-user access to industrial Big Data stores. This paper presents an initial architectural specification for the Optique system along with the individual system components. © Springer-Verlag 2013
    corecore